GPT-4Das nächste große Ding für digitale Zugänglichkeit?

Bedienoberflächen genau beschreiben und komplizierte Texte in leichte Sprache übersetzen: Neue Sprachmodelle können für Nutzer*innen mit Behinderungen Inhalte zugänglicher machen. Aber wir dürfen Inklusion nicht einfach den Maschinen überlassen, kommentiert Casey Kreer.

Auf der rechten Seite ist ein Macbook, auf dessen Display das Comic-Bild eines Eichhörnchens ist. Es hält einen Fotoapparat in der Hand und fotografiert eine Nuss. Auf der linken Seite ist ein englischsprachiger Text, der von GPT-4 erstellt wurde. Er erklärt, dass das Bild lustig ist, weil Eichhörnchen Nüsse normalerweise essen - und nicht fotografieren.
GPT4 erklärt, warum ein fotografierendes Eichhörnchen lustig ist. – Hintergrund: Pixabay; Eichhörnchen: OpenAI; Montage: netzpolitik.org

Casey Kreer ist freiberufliche Beraterin für Barrierefreiheit und Web-Entwicklerin. Sie ist seit ihrer Geburt sehbehindert und nutzt seit ihrem sechsten Lebensjahr assistive Technologien.

Ich habe nicht schlecht gestaunt, als OpenAI kürzlich GPT-4 vorgestellt hat – ein noch größeres Sprachmodell. Anders als seine direkten Vorgänger sollte es sowohl mit Texten als auch mit Bildern umgehen können. In der Demo wurde dem Modell eine handschriftliche Skizze für eine Website gezeigt, zu der es innerhalb weniger Sekunden passenden Code ausspuckte.

„Richtig krass“, meinten einige meiner Bekannten aus IT-Kreisen. Andere sind noch immer skeptisch, denn in der Blase wurde ChatGPT hauptsächlich für seine Fehler und Probleme zerrissen.

Ich selbst bin zwiegespalten – als blinde Nutzerin finde ich die neuen Möglichkeiten großartig. Als Erstellerin von Inhalten bin ich skeptisch. Denn bei meiner Arbeit als Beraterin für digitale Barrierefreiheit fällt mir auf: Schon jetzt verlassen sich viele Unternehmen und öffentliche Stellen immer mehr auf künstliche Intelligenz, wenn es um die Zugänglichkeit ihrer Inhalte geht. Es fehlen an allen Enden Ressourcen und Expertise dazu, ein digitales Angebot wirklich inklusiv zu gestalten.

Bildbeschreibungen können automatisiert werden

Bilder sind für zwischenmenschliche Kommunikation extrem wichtig – deshalb sollte man sie immer auch für Blinde und Sehbehinderte beschreiben, wenn man sie einsetzt. Noch vor zwei Monaten habe ich in einem Vortrag behauptet, künstliche Intelligenz sei noch nicht dazu in der Lage, qualitativ sinnvolle Bildbeschreibungen und Alternativtexte zu verfassen.

Diese Aussage möchte ich jetzt gerne widerrufen oder zumindest mit einem Asterisk versehen. KI-Modelle, die die Beziehungen und Interaktionen von Objekten auf Bildern nicht nur erkennen, sondern auch verstehen können, sind definitiv dazu fähig. OpenAI zeigte eine Demo, in der GPT-4 das User-Interface einer Chat-App beschreiben sollte. Ein Auszug aus dem Ergebnis:

Das Bild zeigt einen Screenshot der Discord-Anwendungsoberfläche. In der oberen linken Ecke befindet sich ein Serversymbol mit der Bezeichnung „GPT-4“. Auf der linken Seite, unter dem Servernamen, gibt es zwei Bereiche: „TEXTKANÄLE“ und “ SPRACHKANÄLE“. Unter „TEXTKANÄLE“ gibt es zwei Kanäle: „#general“ und „#gpt-4-demo“, wobei letzterer der aktuell ausgewählte Kanal ist.

Die Beschreibung war noch länger. GPT-4 beschrieb, welche Chatnachrichten von wem wo zu sehen sind und wer gerade online ist.

Ich bin begeistert. Noch nie zuvor ist mir eine Bildbeschreibung eines Menschen begegnet, die eine grafische Bedienoberfläche so akkurat wiedergegeben hat. GPT-4 demonstriert hier an gleich mehreren Stellen ein echtes Verständnis für den Aufbau der UI und den Kontext eines Chatprogramms. Alles, was dafür notwendig war, ist ein Prompt, der darum bittet, dieses Bild sorgfältig zu beschreiben.

Noch befindet sich dieses Feature in einer geschlossenen Preview – deshalb lässt sich nur erahnen, welche Dinge möglich werden, wenn man den Prompt weiter verfeinern würde. Für viele allgemeinverständliche Bilder und Grafiken wird das Sprachmodell aber auch ohne diese Zusatzinformationen passende Beschreibungen generieren können, die ich als blinde Nutzerin eines Screenreaders vielleicht sogar ganz auf meine eigenen Wünsche anpassen kann.

So könnte ich darum bitten, ein Bild nur kurz und knapp zu umreißen, wenn es nicht so sehr auf seinen Inhalt ankommt. Oder ich entscheide mich für ausführliche Beschreibungen der Fotos in meiner Social-Media-Timeline, um am Leben meiner Freund*innen so teilhaben zu können, wie ich es bisher niemals konnte. Oder visuelle Kunst – mit GPT-4 kann ich Kunstwerke in Geschichten oder Gedichte „übersetzen“ und sie mir so erstmals auch auf einer künstlerischen Ebene zugänglich machen.

GPT-4 macht gravierende Fehler

Natürlich stellt sich dann sofort die Frage, inwiefern Bias und der limitierte Wissensstand des Modells beim Beschreiben von Bildern eine Rolle spielen. Es kann vorkommen, dass das Modell bestimmte Objekte oder Details auf Bildern nicht erkennt oder falsch beschreibt. Darüber hinaus kann das Modell unbeabsichtigt Stereotypen und Vorurteile in seinen Beschreibungen reproduzieren, die dann wiederum zu Diskriminierung führen können. Gerade die Beschreibung von Personen möchte ich hier einmal besonders hervorheben.

Bei allen Beispielen, die OpenAI selbst im Livestream gezeigt hat, gab es gravierende Probleme im Bereich der Barrierefreiheit und bei der korrekten Wiedergabe von Informationen: Die eingangs erwähnte Website wurde zwar funktional umgesetzt, jedoch nicht barrierefrei. Die Bildbeschreibung der Chat-UI enthält in ihrer vollen Länge einige Details wie ein Werbebanner und Schaltflächen, die falsch beschrieben wurden.

In einem vom Publikum ausgewählten Bild beschreibt GPT-4 die Bewegung einer Astronaut*in, als würde sie sich auf ein Raumschiff zubewegen – tatsächlich sieht es eher so aus, als entferne sie sich davon. Im letzten Beispiel erklärt das Sprachmodell, ein Eichhörnchen mache ein Foto einer Nuss. Das sei lustig, weil Eichhörnchen sonst normalerweise Nüsse essen würden. Visuell und ohne Kontext lässt sich hier jedoch nicht erkennen, dass das Eichhörnchen wirklich ein Foto einer Nuss macht.

Menschen können das Modell mit Kontext versorgen

Bei den Bildern wurden hier also kritische Details entstellt, die für blinde Betrachter*innen nicht mehr nachvollziehbar sind. Das ist nicht nur ein Problem von GPT-4, sondern auch eines von allen anderen automatischen Bildbeschreibungs-Tools, die etwa integriert in Apples iOS schon seit einigen Jahren existieren. Was aber jetzt besonders ist, ist eben die Tatsache, dass wir dem Modell nun zusätzlichen Kontext liefern können.

Ich vermute, dass ein Blogartikel oder Social Media-Post über die Erkundung eines neuen Planeten ausreichen könnte, um dem Modell bei der Beschreibung der Astronaut*in einen Stups in die richtige Richtung zu geben.

Auch das Erkennen einer Bedienoberfläche ist keine Neuheit in der KI-Welt. Apple betreibt bereits seit einigen Jahren Forschung dazu, wie sich interaktive Oberflächen aus Screenshots rekonstruieren lassen, wenn eine App von ihren Entwickler*innen nicht barrierefrei gestaltet und mit den notwendigen Tags ausgestattet wurde.

Diese Forschung ist seit mittlerweile zwei Jahren für Nutzer*innen des Screenreaders VoiceOver erlebbar – im Alltag hilft es jedoch nur an sehr wenigen Stellen weiter, weil der KI Kontext und das Verständnis für User-Workflows fehlen. Hier könnte die Integration eines Sprachmodells wie GPT-4 also eine echte Revolution bei der Zugänglichkeit von Programmen bedeuten, solange die Entwickler*innen sich weiterhin selbst Mühe geben, ihre Oberflächen barrierearm zu gestalten.

Sprachliche Feinheiten sind entscheidend

Es gibt noch einen weiteren Bereich, bei dem Sprachmodelle helfen können: Während die Barrierefreiheit von digitalen Inhalten für Blinde und Sehbehinderte oft stark vom korrekten Verständnis von Bildern abhängig ist, sind viele textuelle Inhalte für Menschen mit kognitiven Behinderungen sehr schwer zu verstehen. Die Modelle könnten die Texte in „Leichte Sprache“ übersetzen. Microsoft Bing macht im Edge Browser aus einem aktuellen netzpolitik.org-Artikel zum Thema Internetwerbung für ungesunde Lebensmittel folgendes:

Die Web-Seite ist über ein Gesetz. Das Gesetz will keine Werbung für ungesundes Essen an Kinder. Das Gesetz will, dass Kinder gesund essen. Das Gesetz will auch, dass Kinder nicht zu dick werden. Das Gesetz gilt für Werbung im Fernsehen und im Internet. Aber das Gesetz ist noch nicht fertig. Es gibt viele Fragen zu dem Gesetz. Zum Beispiel: Wie soll das Gesetz kontrolliert werden? Was passiert mit Werbung aus anderen Ländern? Was bedeutet das Gesetz für Menschen, die im Internet über Essen schreiben?

Zwar ist diese Zusammenfassung sehr leicht verständlich, jedoch greift sie das Thema nur rudimentär auf und lässt wesentliche Details weg. Bittet man Bing jetzt um einen Text zu bestimmten Aspekten, sieht das Ergebnis gleich viel besser aus – allerdings patzt das Modell munter weiter. Aus dem BMEL, dem Bundesministerium für Ernährung und Landwirftschaft, wird hier plump „Ministerium für Essen und Land“, was die echte Information entstellt. Weitere sehr wichtige Details bleiben weiterhin, verantwortet durch antrainierten Bias, gänzlich verborgen.

Rechts im Bild: Der Artikel zum Verbot von Werbung für ungesunden Lebensmitteln für Kinder. Links eine Übersetzung des Textes in Leichte Sprache.
Wie Bing einen Artikel in Leichter Sprache zusammenfasst - Screenshot

Unterstützung für Konsument*innen von Inhalten

Was all diese Beispiele und Anwendungsfälle gemeinsam haben: Es braucht immer noch die menschliche Expertise zur Einordnung und zur Überprüfung von Informationen. Ohne diese schaffen wir weiterhin viele neue Barrieren, die Menschen mit Behinderungen aktiv von der Teilhabe am Internet ausschließen.

Man kann jetzt natürlich argumentieren, dass all diese Fähigkeiten einen riesigen Impact auf die Inklusion von Menschen mit Behinderung im Internet haben und man sie deshalb so oft und so weitläufig einsetzen sollte, wie es nur möglich ist. Denn, wie ich selbst seit Jahren predige: „Jede Bildbeschreibung ist besser als gar keine.“

Während diese Technologien in den Händen der Konsument*innen von Inhalten einen großen Unterschied machen können, sollten wir nicht unsere Verantwortung beim Erstellen unserer Inhalte vernachlässigen. Wir sind es, die ihnen Bedeutung geben und die damit einen Mehrwert im Leben unseres Publikums bieten können.

Machine Learning basiert auf Daten, die Menschen erschaffen. Die meisten Websites und Bilder sind bis heute nicht barrierefrei. So wird alles, was Sprachmodelle produzieren, weiterhin durchzogen sein von Barrieren und strukturellem Ableismus – wenn man nicht sehr genau aufpasst. Und diese Schwelle sinkt leider immer weiter.

Als Nutzerin von assistiven Technologien möchte ich selbst entscheiden, inwiefern ich mich auf die oftmals lückenhaften und falschen Informationen verlassen möchte, die mir diese Systeme liefern. Sie sind für mich eine Bereicherung. Und sie funktionieren besser, je mehr die Inhalte-Ersteller*innen sich auch selbst darum bemühen, diese barrierefrei zu gestalten.

Dazu gehört es weiterhin, Bildbeschreibungen zu verfassen, Videos mit Untertiteln zu versehen und Texte in Leichte Sprache zu übersetzen. Keine Bereicherung sind die Technologien, wenn die Ersteller*innen es an die Maschinen delegieren, Inhalte für Menschen mit Behinderung zugänglich zu machen, ohne sich damit auseinanderzusetzen, was Barrierefreiheit eigentlich bedeutet.

Die Menschheit ist an dem Punkt angelangt, an dem künstliche Intelligenz eine denkbare Unterstützung beim barrierefreien Konsumieren und, wenn man das notwendige Fachwissen dafür hat, auch beim Erstellen von Inhalten wird. Nicht an dem, an dem es Inklusion komplett übernimmt und niemand mehr Barrieren im digitalen Raum erfährt. Es erfordert weiterhin eine Menge Expertise und ein Auge für kleinste Details, um wirklich Inhalte zu schaffen, die für alle zugänglich sind.

4 Ergänzungen

  1. Ich denke mit ChatGPT wird es in Zukunft sehr einfach werden Massenüberwachung zu realisieren. z.B. alle Mails und Inhalte der Bürger zu Scannen und alles verdächtige sofort zu melden oder gar zu sperren. Das Netz der Kontrolle kann mit all verfügbarer KI dann sehr sehr eng aufgezogen werden.

    Bei all dem Hype sollte man die Gefahren für unsere Freiheit da immer mit im Blick haben !

    1. Wenn CEO verlautbart, dass z.T. nicht zu unterscheiden ist, ob ein Text von der KI kommt, bedenken:
      – Zunächst heißts Cloud und keine Details mehr. Also auch kein on-premise.
      – Die Cloud weiß, welcher Account was generiert hat. Ein Tracking- und Kontrollszenario bei großflächiger Nutzung. Ähnlich wie bei Bildgenerierung lässt sich u.a. auch der Erfolg bestimmter Ausgaben tracken. Am Ende hängt auch der am Gusto der Herren der Cloud, und ihr haltet nicht mal ein Werkzeug in der Hand. (Was ihr bei einer Cloud eigentlich sowieso nicht tut, doch zahlt ihr und werdet gleichzeitig über die Qualität der Ausgabe indirekt gestupst.)

  2. Das Zeug steckt halt noch in den Kinderschuhen, hat aber größeres Potential. Money makes it, Google und Co haben monetär ein großes Interesse daran, Texte und komplxe Grafiken besser zu verstehen, deshalb wird sich das in absehbarer Zeit immer weiter verbessern.
    Ich würde auch ihre andere Prämisse in Frage stellen: Von Menschen erstelle Texte in Leichter Sprache oder Bildbeschreibungen können schlechter sein oder mehr Bias enthalten als das, was ChatGPT heute schon macht.
    Wünschenswert wäre vor allem, dass man nicht von einer Handvoll amerikanischer Riesenkonzerne abhängig wäre, sondern diese Intrumente als Betroffene selbst nutzen könnte, aber davon sind wir wirklich weit weg, OpenSource ist auch in Deutschland nocht nicht angekommen.

Dieser Artikel ist älter als ein Jahr, daher sind die Ergänzungen geschlossen.